相似性聚类

原文:Similarity Clusters

从前,柏拉图学园(Plato's Academy)的哲学家们声称,对人类最好的定义是「无羽毛二足动物」。据说锡诺普的第欧根尼(Diogenes of Sinope),也就是犬儒学派的第欧根尼,立刻展示了一只拔光了羽毛的鸡并宣布:「这就是柏拉图说的人。」柏拉图主义者们随即把他们的定义改为了「有着宽指甲的无毛两足动物」。

没有任何一本字典,也没有任何一部百科全书,曾穷尽列出过人类所共有的所有特征。我们有红色的血液,两只手各有五根手指,有骨质的头骨, 23 对染色体——但这些特征同样可以用来描述其他动物物种。我们制造复杂的工具来制造复杂的工具,我们使用带有句法结构的组合式语言,我们利用临界核裂变反应作为能源:这些特征或许能把人类单独区分出来,但这并不适用于所有人类——我们当中有很多人从未建造过核裂变反应堆。只要拥有一套正确且充要的基因序列,你就可以把所有的人类,并且只把人类挑选出来——至少目前是这样——但这仍然远远不是人类所共有的全部特征。

但是,只要你碰巧不在一只拔光了羽毛的鸡附近,说一句「寻找无羽毛二足动物」,或许就足以挑选出几十个特定的人类个体,并将他们与房子、花瓶、三明治、猫、颜色或数学定理区分开来。

一旦「无羽毛二足动物」这个定义被绑定在了一些特定的无毛两足动物上,你就可以审视这个群体,并开始归纳出除了单纯的「无羽毛」和「二足」之外的、这些「无羽毛二足动物」似乎共同拥有的一些其他特征。你看到的这些特定无毛两足动物似乎也会使用语言,会制造复杂的工具,会说带有句法结构的组合式语言,被捅中会流出红色的血,喝下毒芹汁就会死。

于是,「人类」这个类别变得越来越丰富,添加的特征也越来越多;所以当第欧根尼最终展示他那只拔了羽毛的鸡时,我们并没有被愚弄:这只拔毛鸡显然与其他的「无羽毛二足动物」并不相似。

(如果亚里士多德逻辑真的是人类心理学的一个优秀模型,那么柏拉图主义者们就会看着那只拔了毛的鸡说:「没错,那是个人类;你想说明什么?」)

如果你看到的第一个无羽毛二足动物是一只拔了羽毛的鸡,那么你最终可能会认为「人类」这个语言标签指代的就是一只拔毛鸡;因此,我可以修改我的藏宝图,让它指向「有着宽指甲的无羽毛二足动物」,而且如果我足够明智,我会接着说:「看到那边的第欧根尼了吗?那是一个人类,我也是一个人类,你也是一个人类;而那只黑猩猩不是人类,尽管它和人类相当接近。」

最初的线索只需要将使用者引导至相似性聚类(similarity cluster)——也就是具有许多共同特征的事物群体即可。在那之后,最初的线索就已经完成了它的使命,我就可以继续传达新的信息,比如「人类目前终有一死」,或者任何其他我想对我们这些无毛两足动物说的话。

我们最好不要把字典看作是一本记载了亚里士多德式类别定义的书,而应该把它看作是一本提示手册,用来将语言标签与相似性聚类匹配起来,或是将标签与有助于区分各个相似性聚类的属性匹配起来。